import re
import requests
import csv

# 获取源代码

#确定真实的url地址（静态网页：地址导窗栏的一串，动态网页：隐藏起来的）
url = "https://movie.douban.com/top250"
headers = {
    "user-agent": "Mozilla/5.0(Windows NT 10.0 Win64 x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}

#发送网络请求(范数据<文本，图片url,js,css>)
response = requests.get(url=url, headers=headers)
html_data= response.text
print(html_data)

#保存数据(数据追加写入)
f = open("movie.csv", mode="w",encoding='utf-8',newline='')
csvwriter = csv.writer(f)

# 解析我们想要的数据
obj = re.compile(
    r'<li>.*?<div class="item">.*?<span class="title">(?P<电影名>.*?)'
    r'</span>.*?<p class="">.*?<br>(?P<年份>.*?)&nbsp.*?'
    r'<span class="rating_num" property="v:average">(?P<评分>.*?)</span>', re.S)

# 开始匹配
ret = obj.finditer(html_data)
for it in ret:
    dic = it.groupdict("")
    dic['年份'] = dic['年份'].strip() 
    csvwriter.writerow(dic.values())

f.close()
print("OK!")



